سیستم مکانیزه طبقه بندی اخبار در بستر وب
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات
- نویسنده ملیکا یعقوبی
- استاد راهنما حمید حسن پور مرتضی زاهدی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1391
چکیده
رشد روز افزون و گسترش چشمگیر تعداد وب سایت ها و حجم بالای داده های موجود در اینترنت، یکی از چالش هایی است که دهکده جهانی وب با وجود مزایای بیشمارش برای انسان به همراه آورده است. از طرف دیگر، امروزه نیاز و تمایل برای کسب دقیق و به موقع اطلاعات پیرامون حوادث جاری، به منزله برنامه ریزی جهت گذران زندگی، چه در سطح شخصی و چه در سطح سازمانی و سیاسی از اهمیت بسیار بالایی برخوردار است. سرعت بالای گسترش اخبار در اینترنت و عدم امکان کنترل آنها پس از انتشار، افزایش چشمگیر منابع خبری و حجم بالای اخبار منتشر شده در موضوعات و فیلدهای مختلف، امکان پیگیری مداوم اخبار به صورت دستی را غیر ممکن نموده است. این حجم بالا نه تنها در بدست آوردن اطلاعات مورد نیاز به کاربران کمک نمی کند، بلکه باعث سردرگمی و ابهام بیشتر آن ها نیز می گردد، تا آنجا که نیاز به سیستمی برای مدیریت و در نهایت متمایز ساختن اسناد خبری از یکدیگر و دسته بندی آن ها در گروه های متشابه در این بستر به چشم می خورد. در این پروژه برای رفع این معضل، از تلفیق روش های وب کاوی و دسته بندی داده های متنی برای مدیریت بهینه اسناد خبری بهره گرفته شده است. قسمتی از متن اسناد خبری در ابتدا به کمک یک خدمتگزار وب از سایت های خبری مورد تایید و مشخص برداشته شده و پس از آموزش سیستم، پیش پردازش های مورد نیاز بر روی اسناد قابل تست صورت گرفته، هر سند خبری به دسته های مربوطه و انتخابی کاربر ارجاع داده شده و نتیجه به صورت لیستی از اخبار دسته بندی شده نمایش داده می شود. از دو عامل پویایی اسناد خبری و ناهمگونی های موجود در زبان فارسی می توان به عنوان اساسی ترین چالش های موجود در روند کار نام برد. تا کنون بیشترین تمرکز در مبحث دسته بندی اسناد بر روی استفاده از معیارهای شباهت متفاوت و مقایسه عملکرد آنها بر روی ویژگی های انتخابی بوده است. همچنین در اکثر موارد از فرکانس تکرار لغات در متن و ارتباط آنها با مجموعه اسناد تحت آزمایش و در چند مورد نیز از تعداد اسناد درون گروهی به عنوان ویژگی انحصاری متن استفاده شده است. در حالی که در این پروژه، بیشترین تاکید بر روی آماده سازی و نرمال سازی داده های قابل پردازش، ادغام دیکشنری های کمکی به منزله افزایش اهمیت کلمات کلیدی در گروه ها و در نهایت توجه به فرکانس تکرار لغات هر سند -به صورت مستقل از دیگر اسناد- در گروه های مختلف صورت گرفته شده است. همچنین به منزله انتساب سند حد آستانه ای برای تعیین حداقل میزان شباهت در نظر گرفته شده ، که تعلق سند به بیش از یک گروه را ممکن می سازد. نتیجه بدست آمده حاکی از موفقیت روش پیشنهادی بر روی داده های خبری موجود در وب می باشد.
منابع مشابه
طبقه بندی الگوهای پویای رفتاری سیستم ها
امروزه استفاده از اصطلاحاتی همچون "سیستم"، "سیستم های پیچیده"، "سیستم های پیچیده انطبا ق پذیر" و واژه هایی از این دست نسبت بهگذشته بسیار افزایش یافته است که این امر نشان از اهمیت مفهوم سیستم دارد. لذا شناخت انواع سیستم ها و الگوهای رفتاری آنها به منظورتجزیه وتحلیل صحیح آنها از اهمیت ویژه ای برخوردار می باشد. در این مقاله سعی می شود که انواع الگوی پویای رفتاری سیستم ها که از آن...
متن کاملسیستم شناسایی و طبقه بندی اسامی در متون فارسی
Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in ...
متن کاملکاربرد سیستمهای طبقه بندی در سیستم اطلاعات پرستاری: مطالعه مروری
مقدمه: از الزامات سیستم اطلاعات پرستاری سیستمهای طبقه بندی پرستاری هستند که عمدتاً فعالیت های پرستاری را در سه حیطه تشخیص، اقدام و پیامد آنها دسته بندی میکنند. اما تبیین نحوه استفاده از این طبقه بندی ها در سیستمهای اطلاعاتی پرستاری مهم است. هدف: در مطالعه حاضر، کاربرد سیستم های طبقه بندی در سیستم های اطلاعاتی پرستاری مورد بررسی قرار گرفته است. مواد و روش ها: در یک مطالعه مروری، بر اساس کل...
متن کاملتغییرات جدید الگوی دودویی محلی و طبقه بندی و قسمت بندی تصاویر بافتی بستر دریا
Texture analysis plays an important role in image processing. Considering the extraordinary appearance texture sonar images, texture analysis are good choices for analysis of acoustic seabed images. Local binary pattern (LBP) operator is a very efficient and multi-resolution texture descriptor. It acquires appropriate information from the illumination and moods of images. Despite many developin...
متن کاملمقاسه سیستم طبقه بندی اقدامات کشورهای منتخب با ایران
Introduction: today, health care with desired quality, without one complete and effective procedure of the classification system it is impossible. In this system, the results of the care treatment will be registered in the patient's file with the standard codes. These codes are the basis of analysis the information for health care personnel, the investigators, policy - makers and the health - p...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023